В настоящее время разработка новых алгоритмов обработки и передачи речевых сигналов (РС) в телекоммуникационных системах вызывает значительный интерес. При этом РС, с которыми приходится иметь дело на практике, всегда в той или иной степени подвержены действию акустических помех (АП). В тех случаях, когда АП имеют значительную интенсивность, их наличие может существенно исказить результаты обработки, анализа или распознавания речи. В целом ряде других случаев, например, при анализе зашумленных РС в криминалистических целях или восстановлении аудиозаписей в архивах, задача уменьшения негативного воздействия АП на РС носит самостоятельный характер и является единственной целью работы. Поэтому разработка алгоритмов снижающих влияние АП на РС является весьма актуальным направлением исследований.

 Одним из способов решения данной проблемы может быть использование новой элементной базы, например, на основе искусственных нейронных сетей (ИНС). Нейронные сети представляют собой весьма перспективную вычислительную технологию, дающую новые подходы к исследованию различных динамических задач.

Таким образом, целью работы является разработка и исследование алгоритма подавления акустических помех.

Анализ статистических характеристик АП Акустический сигнал, поступающий через микрофон на вход системы цифровой обработки, практически всегда содержит в себе не только РС, но и различного рода АП. Отрицательное влияние АП на РС проявляется в уменьшении разборчивости и ухудшении качественных характеристик речи. Особенно сильно данный эффект проявляется в цифровых системах обработки речи, так как приводит к дополнительным нелинейным искажениям РС. При экспериментальных исследованиях анализировалось влияние АП на РС, создаваемых автотранспортом вблизи дороги, а также АП внутри автомобилей марок ВАЗ (Lada) 2112, ВАЗ (Lada) 2190, HyundaiSonata. Запись АП проводилась с частотой дискретизации 40 кГц. В дальнейшем, для корректного наложения данных АП на исходный РС, осуществлялась фильтрация записанных аудио файлов в полосе частот 0,3-3,4 кГц, и децимация отсчетов до частоты дискретизации 8 кГц. Проводился анализ спектральных и статистических характеристик данных АП. Примеры частотных спектров АП представлены на рис. 1.

Разработка алгоритма подавления акустических шумов

Рис. 1. Частотные спектры АП, используемых в экспериментальных исследованиях

Показано, что АП, создаваемые автотранспортом около дороги, являются широкополосными, так как их спектр относительно равномерно распределен в полосе частот 0,3-3,4 кГц, а АП внутри автомобиля – узкополосными, при этом их спектр расположен в полосе частот 0,3-1,5 кГц. На рис. 2 приведены функции плотности вероятности (ФПВ) исследуемых АП. Анализ полученных результатов по критерию согласия χ 2 показал, что данные ФПВ исследуемых АП могут быть аппроксимированы нормальным законом распределения.

Разработка алгоритма подавления акустических шумов

Структура проектируемой ИНС Для решения какой-либо задачи с применением ИНС следует, прежде всего, спроектировать структуру сети, адекватную поставленной задаче. Для реализации алгоритма подавления АП была выбрана нейронная сеть типа «многослойный персептрон». Данный тип архитектуры нейронной сети является классической многослойной сетью с полными последовательными связями нейронов. При обучении ИНС, за счёт своего внутреннего строения, выявляются закономерности и связи входных и выходных образов. Таким образом, ИНС типа «многослойный персептрон» позволяет наиболее точно аппроксимировать выходные данные при обучении [12]. Обучение ИНС проводилось по методу Левенберга-Марквардта. Данный метод может быть представлен как комбинация методов наискорейшего спуска и Гаусса-Ньютона, которые являются примером способа быстрой оптимизации обучения [13]. Главными достоинствами данного алгоритма являются высокая скорость обучения и отсутствие необходимости в указании критериев остановки обу- Цифровая Обработка Сигналов №1/2017 29 чения [14]. В процессе проектирования была проведена оптимизация структуры ИНС по критерию минимума среднеквадратического отклонения (СКО) обучения. При оптимизации происходило изменение количества скрытых слоев, количества нейронов в слоях и наклона сигмоидальной функции активации нейронов. Оптимальная структура ИНС включала в себя: – количество входов – 1; – количество выходов – 1; – количество скрытых слоев – 2; – количество нейронов в первом скрытом слое – 10; – количество нейронов во втором скрытом слое – 10; – вид активационной функцией – сигмоидальная. Уровень подавления АП существенно зависит от параметров ИНС. В связи с этим критерием перестройки параметров ИНС было выбрано значение СКО АП – σ, что позволяло подавить примерно 68,2 % помех, при условии, что их плотность распределения вероятности хорошо аппроксимируется нормальным распределением. Таким образом, был введен порог подавления ИНС p = σ. Для определения значения порога подавления необходимо в паузах речи оценивать дисперсию АП. Таким образом, структурная схема алгоритма подавления АП на основе ИНС имеет вид показанный на рис. 3

Разработка алгоритма подавления акустических шумов

Рис. 3. Структурная схема нейросетевой реализации алгоритма подавления АП

Для проведения экспериментального исследования нейросетевой реализации алгоритма подавления АП был использован РС содержащий в себе акустически взвешенные фразы представленные в ГОСТ Р 51061-97. АП накладывались на РС с различной дисперсией шума. При исследованиях было показано, что погрешность квантования обученной ИНС при отсутствии АП не превышала погрешности квантования стандартного кодера G.711. Исследовались зависимости ОСШ q зашумленного РС от уровня СКО АП σ. Для этого на исходный РС аддитивно накладывались различные АП с уровнем нормированного СКО от 0,01 до 0,12. Нормировка осуществлялась к СКО РС. После чего для сравнения зависимостей ОСШ от уровня СКО АП зашумленные данные РС пропускались через нейросетевую реализацию алгоритма шумоподавления, приведенную на рис. 3 и через стандартный кодер с μ-компандированием без шумоподавления, результаты сравнения приведены на рис. 4. Из анализа рис. 4 следует, что нейросетевая реализация алгоритма шумоподавления позволяет увеличить ОСШ от 7 до 23 дБ. Соответствующие выбросы на рис. 4 связаны с дискретной перестройкой порога подавления АШ. Можно отметить, что степень подавление АП не существенно зависит от типа АП и его спектральных характеристик. Для оценки дисперсии Dдкш декодированного шума АП с различным уровнем дисперсии (от 0 до 0,01) проходили через схему, представленную на рис. 3. В данном случае АП не накладывались на РС для более точного определения его параметров. В результате экспериментальных исследований было отмечено снижение уровня дисперсии шума Dш на выходе проектируемого устройства по сравнению со стандартным кодером источника сообщения в 10 – 100 раз.

Разработка алгоритма подавления акустических шумов

Рис. 4. Зависимости ОСШ декодированного сигнала при нейросетевой реализации кодера РС по сравнению со стандартным кодером

методу MOS [18] была произведена запись РС шестью дикторами, которые начитывали акустически взвешенные фразы, прописанные в ГОСТ Р 51061-97. После этого каждая АП аддитивно накладывалась на РС с различным ОСШ – от 0 до 40 дБ. Полученные РС кодировались стандартным кодером источника сообщения и с помощью нейросетевой реализации перестраиваемого кодера. Десять аудиторов производилисубъективную оценку прослушиваемых РС по 5-ти бальной шкале [19]: 5 – понимание речи без малейшего напряжения внимания; 4 – понимание речи без затруднений; 3 – понимание речи с напряжением внимания без переспросов и повторений; 2 – понимание речи с некоторым напряжением внимания, редкими переспросами и повторениями; 1 – понимание речи с большим напряжением внимания, частыми переспросами и повторениями.

Оценки аудиторов складывались, а затем находилось среднее значение субъективной оценки по методу MOS. В табл. 1 и табл. 2 приведены средние значения субъективных оценок по шкале MOS в зависимости от ОСШ.

Таблица 1. Среднее значение субъективных оценок для широкополосных АП

Разработка алгоритма подавления акустических шумов

Таким образом, удалось достигнуть увеличения субъективной оценки качества РС на 0,2-0,5 балла по шкале MOS. Архитектуры ИНС, используемые в качестве предсказателей РС, и их анализ Известно [8], что для задач регрессии рекомендуется использовать такие типы архитектур ИНС, как многослойный персептрон и линейная регрессионная сеть. Многослойный персептрон является классической многослойной сетью с полными последовательными связями нейронов с сигмоидальной функцией активации. Линейная регрессионная сеть является частным случаем персептрона, где в качестве активационной функции используется линейная функция с ограничениями, определяемая минимальными и максимальными значениями массива выходных данных. Для обеспечения динамики ИНС между скрытыми слоями добавлены обратные связи, позволяющие более точно устанавливать зависимости между входными и выходными данными [9]. Анализ ИНС типа многослойный персептрон Схема обучения ИНС типа многослойный персептрон приведена на рис. 5. В качестве входного массива данных был использован акустически взвешенные РС с частотой дискретизации 8 кГц, соответствующие ГОСТ Р 51061-97.

Разработка алгоритма подавления акустических шумов

Рис. 5. Схема обучения ИНС типа многослойный персептрон

с. 5. Схема обучения ИНС типа многослойный персептрон В качестве выходного массива данных были выбраны выходные значения фильтра предсказателя соответствующего порядка. Обучение многослойного персептрона проводилось по алгоритму Левенберга-Марквардта и обратного распространения ошибок, а также квази-Ньютоновским методом обратного распространения.

Зависимости среднеквадратичной ошибки предсказания σ от порядка фильтра N изображены на рис. 6.

Разработка алгоритма подавления акустических шумов

Рис. 6. Зависимости среднеквадратичной ошибки предсказания от порядка предсказателя для ИНС типа многослойный персептрон

Анализ полученных зависимостей показал, что лучшие результаты достигаются при обучении по методу обратного распространения. На рис. 7 изображена схема эксперимента.

Разработка алгоритма подавления акустических шумов

Рис. 7. Схема эксперимента

Эксперимент соответствует неадаптивному методу кодирования РС ДИКМ без передачи коэффициентов предсказания. Рассматривались два варианта реализации предсказателя на приемной стороне: – с обучением ИНС как на передающей, так и на принимающей стороне, при этом значения векторов смещения и весов ИНС-предсказателей на приёмной и передающей сторонах различны; – с обучением ИНС только на передающей стороне, значения векторов смещения и весов ИНС-предсказателя на приёмной стороне полностью соответствуют значениям векторов смещения и весов ИНС-предсказателя на передающей. На рис. 8 изображены зависимости среднеквадратичной ошибки предсказания σ от порядка фильтра N при наличии и отсутствии обучения ИНС-предсказателя на приемной стороне.

Разработка алгоритма подавления акустических шумов

Рис. 8. Зависимости среднеквадратичной ошибки предсказания от порядка предсказателя для ИНС типа многослойный персептрон

Из анализа рис. 8 следует, что существенных разли- Цифровая Обработка Сигналов №1/2017 31 чий между схемами с обучением и без обучения ИНСпредсказателя на приемной стороне не наблюдается. Таким образом, можно использовать схему без обучения на приемной стороне, чтобы не усложнять нейросетевую реализацию предсказателя. Также очевидно преимущество предсказателя, спроектированного на базе ИНС типа многослойный персептрон, перед известным нерекурсивным КИХ-фильтром предсказателем, что позволяет уменьшить порядок предсказателя от 20 % до 50 % при той же ошибке предсказания. Анализ ИНС типа линейная регрессионная сеть В отличие от многослойного персептрона линейная регрессионная сеть не нуждается в обучении, так как самоорганизуется и адаптируется в зависимости от исходных входных и выходных массивов данных. Таким образом, данная сеть ожет быть использована для реализации адаптивного предсказателя. Эксперимент проводился в соответствии с рис. 7, при этом адаптация КИХ-фильтра осуществлялось по алгоритму ЛевенсонаДарбина. В данном случае для реализации схемы эксперимента с помощью предсказателя на основе н КИХфильтра необходимо создать низкоскоростной канал для передачи коэффициентов предсказания. В связи с этим было рассмотрено две реализации организации предсказателя на базе линейно-регрессионной ИНС: – с передачей коэффициентов весов и векторов смещения ИНС после адаптации на передающей стороне; – с адаптацией ИНС на приемной стороне. Зависимости среднеквадратичной ошибки предсказания от порядка предсказателя для линейной регрессионной ИНС приведены на рис. 9. Из анализа рис. 9 можно сделать вывод, что адаптивный ИНСпредсказатель обеспечивает более высокие результаты по сравнению с известным предсказателем на основе КИХ-фильтра, при этом не требуя организации дополнительного низкоскоростного канала для передачи коэффициентов предсказания, что является его существенным преимуществом

Разработка алгоритма подавления акустических шумов

Рис. 9. Зависимости среднеквадратичной ошибки предсказания от порядка предсказателя для линейной регрессионной ИНС

На рис. 10 приведены зависимости среднеквадратичной ошибки предсказания от порядка предсказателя для 50, 150, 500 и 1000 отсчетов адаптации РС.

Разработка алгоритма подавления акустических шумов

Рис. 10. Зависимости среднеквадратичной ошибки предсказания от порядка предсказателя для линейной регрессионной ИНС

Из анализа зависимостей следует, что ошибка предсказания линейной регрессионной сети существенно зависит от количества отсчетов, по которым происходит адаптация. Наилучшие результаты достигнуты при адаптации по 1000 отсчетам, что при частоте дискретизации 8 кГц составляет 125 мс. Таким образом, можно сделать вывод, что линейная регрессионная сеть может быть применена в качестве адаптивного предсказателя. Помимо этого, ИНС данной архитектуры при условии адаптации на приёмной стороне позволяет снизить ошибку предсказания от 15 % до 70 % при том же порядке или уменьшить порядок предсказания на 10 %–60 % при той же ошибке. Анализ показателей качества речи при нейросетевых реализаций предсказателей в кодерах РС Далеко не всегда качество восстановленного РС может быть охарактеризовано значениями СКО отсчетов, в связи с этим необходимо проводить анализ субъективной оценки качества речи. Для получения субъективной оценки качества РС по методу MOS [18] были произведены записи речи шести дикторов, которые начитывали акустически взвешенные фразы, прописанные в ГОСТ Р 51061-97. Полученные РС кодировались стандартным кодером источника сообщения с предсказателем на основе КИХ-фильтра, а также с помощью нейросетевой реализации фильтра-предсказателя. Десять аудиторов производили субъективную оценку прослушиваемых РС по 5 бальной шкале [19].

Разработка алгоритма подавления акустических шумов

Рис. 11. Зависимости оценки качества речи по шкале MOS от порядка предсказателя

Оценки аудиторов складывались, а затем находилось среднее значение субъективной оценки по методу 32 MOS. На рис. 11 и рис. 12 изображены зависимости субъективной оценки качества речи по шкале MOS от порядка предсказателя.

Разработка алгоритма подавления акустических шумов

Рис. 12. Зависимости оценки качества речи по шкале MOS от порядка предсказателя

Из анализа зависимостей видно, что предсказатель на базе ИНС позволяет увеличить оценку качества речи по шкале MOS до 0,5 балла.